LINGUISTIQUE - Linguistique quantitative

LINGUISTIQUE - Linguistique quantitative
LINGUISTIQUE - Linguistique quantitative

L’expression «linguistique quantitative» est généralement réservée à un champ particulier de la linguistique, où l’on se propose de rechercher des rapprochements entre cette science et diverses autres disciplines à fondements mathématiques, la statistique étant la plus connue et historiquement une des premières. Mais cette dénomination évoque assez mal d’autres branches de la science mathématique souvent sollicitées: logique, théories de l’information et de la communication, théorie des ensembles, programmation, etc. Par ailleurs, la nature du rapprochement entre ces diverses disciplines et la linguistique peut elle-même être fort variable, et aller de la simple analogie (comme dans une étude comparative entre les propriétés d’une langue et celles d’un langage logique ou d’un langage de programmation) à l’utilisation de techniques d’analyse à propos d’un matériau linguistique (par exemple, dans le calcul de fréquences moyennes pour un vocabulaire donné). Pour ces raisons, l’expression «linguistique mathématique», qui commence seulement à être utilisée, reflète sans doute mieux l’étendue des disciplines annexes et leurs rapports avec la linguistique elle-même. Elle marque mieux que l’appellation traditionnelle, aussi, le rapport qui existe entre ces préoccupations quantitatives et la linguistique dite générative ou transformationnelle, où l’analyse linguistique est aussi liée à des techniques autonomes (systèmes formels, etc.), et la linguistique dite computationnelle dont le propos est d’aborder les problèmes linguistiques en fonction de leur traitement mécanique.

Il est donc assez malaisé de rendre compte de tout ce que représente la linguistique quantitative, car le linguiste peut toujours se tourner vers l’utilisation de procédures logico-mathématiques pour décrire, voire interpréter des faits de langues. On conviendra donc de borner ici l’exposé aux démarches actuellement les mieux connues, et qui apparaissent déjà comme classiques, c’est-à-dire essentiellement les rapports de la linguistique avec la logique, d’une part, la statistique et la théorie de l’information, d’autre part.

Linguistique et logique

L’articulation de la linguistique et de la logique peut être envisagée de plusieurs manières, en particulier suivant que l’on fait appel à la logique traditionnelle ou à la logique mathématique qui traite des systèmes formels.

Traditionnellement, la logique est l’étude des formes et des lois générales du raisonnement. Et comme dans la conception elle-même la plus traditionnelle du langage celui-ci «exprime» la pensée, la pensée étant d’abord et fondamentalement la pensée logique – le raisonnement –, on comprendra que les rapports entre le langage et la logique ont toujours été étroits, en même temps qu’ambigus. L’«analyse logique» enseignée à l’école est justement logique dans la mesure où elle s’efforce de définir dans la phrase les rapports entre les mots et les idées. Le procès de ce mode d’intervention de la logique dans l’analyse des faits de langue n’est plus à faire, et on ne signale cet aspect que pour mémoire.

Déjà plus importants pour la linguistique sont les problèmes que soulève l’utilisation de certaines catégories de la logique telles que l’inférence, la transitivité, etc. Par exemple, à partir de l’énoncé: «La maison est petite et blanche», on peut inférer que «la maison est petite» et que «la maison est blanche». En revanche, on ne peut inférer cette dernière phrase à partir de l’énoncé: «La maison est blanche et rouge.» De même, à partir de: «Un chat est un animal», on peut inférer qu’«un petit chat est un petit animal», mais si «un éléphant est un animal», il n’est pas vrai qu’«un petit éléphant est un petit animal». Ces remarques, que l’on pourrait multiplier, montrent que l’usage de catégories logiques dans la description du langage pose des problèmes importants: on pourra, en particulier, se demander quelle est la nature exacte de la coordination par la conjonction «et» et de la classification sémantique qu’elle fait apparaître; la nature de la transitivité d’une relation attributive entre un élément et sa classe, etc.

Les rapports entre ce que l’on appelle les systèmes formels et certaines descriptions linguistiques sont tout autres. Au lieu de servir de procédures annexes destinées à mettre en évidence certaines caractéristiques du langage, comme c’est le cas de la logique traditionnelle, les systèmes formels sont à la base même de l’arsenal descriptif des grammaires génératives et transformationnelles. Très schématiquement, on peut rappeler qu’un système formel est défini par un ensemble de symboles, l’alphabet , et un ensemble de règles de production permettant d’engendrer des expressions , suites de symboles de l’alphabet. Appartiennent seules au langage engendré par le système formel celles des expressions qui sont produites conformément aux règles de production. Il est donc fondamental, pour tout système formel, de pouvoir produire l’ensemble des expressions bien formées, et inversement de pouvoir décider pour une expression quelconque si elle appartient ou non au langage considéré. Les recherches linguistiques fondées sur l’utilisation de ce type d’outil établissent un parallélisme entre les expressions qu’un système formel peut engendrer et les phrases d’une langue; elles sont abordées en détail à l’article GRAMMAIRE. Retenons que les systèmes formels ont été initialement élaborés par des mathématiciens soucieux de vérifier la cohérence des résultats auxquels on aboutit une fois admis un ensemble d’axiomes et d’opérations. C’est la recherche d’un enchaînement entièrement défini des règles de grammaire régissant les productions linguistiques qui a provoqué la rencontre des deux démarches.

Linguistique et statistique

Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences de lettres; et c’est au sténographe Baptiste Estoup que l’on doit les premières observations connues sur les fréquences relatives des mots dans un texte.

Ces observations, reprises et développées ultérieurement, en particulier par George K. Zipf, consistent en ceci: si l’on dresse une table de l’ensemble des mots différents d’un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d’un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n’importe quel mot par son rang est constant: ce que traduit la formule fr = C, où f est la fréquence et r le rang. Cette égalité, qui n’est vraie qu’en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu’il s’agisse véritablement d’un trait général des énoncés linguistiques. Cette constatation, dont le tableau ci-dessous donne un exemple, est souvent désignée sous le nom de loi de Zipf ; elle n’est pas isolée, mais n’est que la première de toute une série d’autres que l’on peut résumer ainsi:

– La fréquence relative des catégories grammaticales, bien que variant d’un individu ou d’un texte à l’autre, est stable. C’est ainsi qu’en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50 p. 100 de n’importe quel texte, l’autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). On peut noter que dans le dictionnaire cette proportion est tout autre, les mots outils ne représentant que 0,5 p. 100 du lexique total.

– La fréquence des mots d’une langue dans le discours est liée à leur structure phonique; en particulier, le nombre de phonèmes d’un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c’est-à-dire moins son «coût de production» est élevé). Cela apparaît bien dans le phénomène général d’abrègement des mots longs dont la fréquence a tendance à augmenter dans le discours: tronquements («cinématographe» devient «cinéma» et «ciné»), sigles (S.N.C.F., U.R.S.S.), auxquels on peut rattacher certains phénomènes de substitution («contremaître» devient «singe», etc.).

Il est de même aisé de vérifier que, si l’on augmente le contenu informatif d’un énoncé en utilisant des mots moins fréquents, le coût de cet énoncé augmente aussi dans la mesure où ces mots sont plus longs. Inversement, si on diminue le coût du message en employant des mots courts, comme ils sont plus fréquents l’information qu’ils apportent diminue. Il apparaît ainsi que ces diverses régularités numériques relèvent en fait du principe général d’économie qui tend à adapter l’effort de production en fonction de l’importance du résultat visé.

Des caractères statistiques réguliers se retrouvent à propos de tous les éléments du langage, et non pas seulement à propos du lexique et de la grammaire. Mais pas plus qu’ailleurs on ne saurait en linguistique considérer la statistique comme instrument définitif de toute preuve, devant lequel le raisonnement doit s’effacer. Ici aussi, le rôle bien compris de la statistique consiste au mieux en la recherche de présomption ou d’indice, de manière il est vrai souvent irremplaçable, eu égard à la possibilité qu’elle offre de dégager une tendance générale d’un ensemble non analysé ou de reconnaître des corrélations peu visibles entre divers facteurs. Quelques exemples montreront le type de service que peut rendre le traitement numérique de données linguistiques.

Dans le domaine de la statistique lexicale et morphologique, il est possible de déterminer les fréquences caractéristiques de certains éléments chez un auteur particulier, ou dans une œuvre par rapport à d’autres, ou encore pour un genre, une époque, une école littéraire, etc. Cela peut permettre, dans les cas les plus favorables, d’apporter un éclairage capital dans des problèmes d’histoire de la littérature tels que les attributions d’auteurs (détection de «faux», d’éditions clandestines, etc.), les chronologies relatives, les filiations.

Dans le domaine de la pédagogie des langues, la statistique lexicale permet d’établir des lexiques de base qui représentent la part la plus fondamentale du vocabulaire d’une langue et qui doivent, par conséquent, faire l’objet d’un enseignement privilégié (français fondamental, etc.).

Au niveau de l’alphabet ou de la phonologie, l’étude statistique peut fournir d’importants renseignements de tous ordres. Par exemple, en sténographie, on aura naturellement intérêt à attribuer les signes les plus simples aux lettres les plus fréquentes en vertu de la recherche de l’économie du coût; on se souvient d’autre part comment William Legrand, le héros du Scarabée d’or d’Edgar Poe, parvient à décrypter le message codé en utilisant les caractères statistiques des lettres de l’orthographe anglaise. En phonologie, les caractères statistiques des phonèmes permettent d’interpréter certains phénomènes tels que ceux de l’évolution des systèmes phonologiques.

La liste des services rendus par la statistique dans le domaine linguistique pourrait être fort longue. Outre les très grandes possibilités d’analyse qu’elle offre, il importe de retenir que son intervention sera d’autant plus efficace et souhaitable que la sphère d’intervention et le sens des hypothèses linguistiques qu’elle autorise seront déterminés par le linguiste lui-même.

Linguistique et théorie de l’information

Très liée à la statistique par son orientation probabiliste, la théorie de l’information offre à la linguistique un outil d’analyse d’une très grande richesse. Cette théorie est née, après la Seconde Guerre mondiale, des travaux de C. Shannon, ingénieur des téléphones, dont le projet était de réduire au minimum le coût du transport de l’information le long d’une ligne téléphonique.

La théorie de l’information offre tout d’abord au linguiste un modèle général de la communication qui peut être décrit ainsi: la communication est le transfert d’information entre un émetteur (locuteur, appareil de radio, téléphone, etc.) et un récepteur (auditeur, disque, etc.) joint par un canal (air, ligne téléphonique, lettre, journal, etc.) grâce à des messages . Ces messages sont mis en forme par l’émetteur grâce à une opération de codage et sont identifiés par le récepteur grâce au décodage , ces deux opérations ne pouvant s’effectuer que par rapport à un code qui leur soit commun. Le canal de transmission est soumis au bruit , terme qui désigne l’ensemble des facteurs qui peuvent perturber une communication (bruit proprement dit, vent, distance élevée, inattention, déchirures dans le cas de journaux, lettres, livres, etc.). Ce concept, extrêmement général, permet de définir le phénomène de redondance qui sera abordé ultérieurement.

Avant d’aller plus avant, il convient de souligner que, même à un niveau aussi général, ce schéma peut être de quelque utilité pour la description des faits linguistiques. Roman Jakobson, par exemple, utilise ce modèle pour définir les différentes fonctions du langage; il distingue ainsi six fonctions diversifiées selon le facteur du processus de communication pris en compte (émetteur, récepteur, canal, message, code, référent).

La théorie de l’information s’intéresse à l’émission, au transfert et à la réception des messages, et se propose de minimiser le coût de ces opérations. Celles-ci s’accomplissent par l’identification des éléments constitutifs du message (lettres d’alphabet, sons, éclairs lumineux, impulsions électriques, etc.). Cette identification, à son tour, consiste à comparer chacun de ces éléments à chaque élément du code jusqu’à la reconnaissance de l’identité des deux. Le problème qui se pose donc en télécommunication est d’effectuer le plus petit nombre possible de comparaisons entre les éléments du message et ceux de code. Il est clair que ce nombre est fonction du nombre d’unités différentes du code et de la probabilité d’apparition de chaque unité dans un message. On est sûr en effet de réduire le nombre de comparaisons si l’on commence par rechercher si l’unité à identifier n’est pas la plus fréquente (c’est-à-dire celle qu’on a le plus de chances de rencontrer), ou, plus généralement, si l’on procède à l’identification par ordre de fréquences décroissantes des unités dans les messages; cela suppose que l’on puisse évaluer la fréquence d’apparition des unités du code dans les messages, ce qui est toujours possible, ne serait-ce qu’en approximation, y compris, comme on l’a vu, dans le cas de messages linguistiques.

À partir du calcul des fréquences, on peut définir l’information apportée par une unité dans un message: celle-ci est inversement proportionnelle à sa probabilité. Cette définition correspond très bien à l’intuition que l’on peut avoir du fait: moins en unité (par exemple, un mot dans une phrase) est attendue, plus elle apporte d’information. On peut ainsi aborder le phénomène de la redondance : un signe est redondant lorsqu’il n’apporte pas d’information – ou, si l’on veut, lorsque sa probabilité est égale à 1. Dans un système non redondant, tous les signes sont également imprévisibles, et chacun apporte donc le maximum d’information. C’est, par exemple, le cas de la graphie du système numérique où chaque chiffre, à chaque rang d’un nombre, est significatif. En revanche, dans le système alphabétique d’une langue comme le français, seules certaines combinaisons de lettres sont possibles, la situation étant la même dans le domaine phonique avec la combinaison des sons.

La redondance des codes linguistiques augmente indéniablement le coût des messages; mais sa fonction est de lutter contre le bruit , et à ce titre elle participe de l’économie de l’exercice du langage. Le bruit, qui recouvre tout ce qui peut troubler un acte de communication, représente une perte d’information; mais dans la mesure où, dans des circonstances données, la redondance est supérieure au bruit, on peut reconstituer un message altéré. Ainsi peut-on restituer les lettres manquantes dans l’énoncé: «J. pr.nds l. tra.n à la g.re», alors qu’on ne peut reconstituer le nombre «62.8». De même les diverses abréviations et élisions que l’on fait subir aux messages télégraphiés attestent de la redondance des signes que l’on ne juge pas indispensables au sens: «Impossible arriver cinq heures. Viendrons soirée.»

Le phénomène de redondance est extrêmement important et se manifeste à tous les niveaux du langage: sons, morphèmes, lexèmes, structures syntaxiques, écriture, etc. Défini comme un superflu d’information, il semble s’opposer au principe de moindre effort; mais on vient de voir que sa fonction est fondamentale dans l’économie générale de la communication. Un simple exemple, en conclusion, montrera l’utilité de ce concept. On connaît la tendance, avouée ou non, de maints auteurs, particulièrement les poètes, à réduire la redondance naturelle et indispensable du langage quotidien par un choix approprié des unités linguistiques. Ce souci d’élever le contenu informatif aboutit à solliciter un effort d’attention d’autant plus grand du lecteur. L’«obscurité» et l’«hermétisme», quand ils ne sont pas recherchés pour eux-mêmes en fonction d’une poétique a priori, ne sont, à vrai dire, rien d’autre que la conséquence d’une recherche de la réduction de la redondance, ou bien celle d’une élévation importante de la quantité d’information transmise, à cause de l’«ineffabilité» ou de l’unicité de l’expérience vécue qui est poétiquement décrite.

Comme dans beaucoup de domaines carrefours, le problème le plus ouvert de la linguistique quantitative ou logico-mathématique est celui de l’articulation de la science linguistique et des disciplines auxquelles elle peut faire appel. Ce problème se situe au-delà de ceux qui concernent tel ou tel choix d’outils particuliers, systèmes logiques, méthodes statistiques, etc. Si, dans un premier temps, les aspects mathématiques du langage ont été le plus souvent abordés par des ingénieurs qui n’étaient linguistes que d’adoption, avec les inévitables méprises que cette situation a pu entraîner sur l’interprétation linguistique de travaux indiscutables du point de vue de la pure technique mathématique, la tendance s’est maintenant largement renversée, qui voit s’affirmer de mieux en mieux la finalité linguistique des approches quantitatives de l’analyse des faits de langues.

Encyclopédie Universelle. 2012.

Игры ⚽ Нужно сделать НИР?

Regardez d'autres dictionnaires:

  • LINGUISTIQUE — NUL DOUTE que, depuis 1950 environ, nous n’assistions à une véritable explosion scientifique de la linguistique. Discipline noble certes, auparavant, mais que rien ne distinguait dans la masse des autres sciences humaines ou sociales. Elle pesait …   Encyclopédie Universelle

  • LINGUISTIQUE - Sociolinguistique — Le terme de sociolinguistique date, semble t il, des alentours de l’année 1960; auparavant, on parlait de sociologie du langage pour délimiter le même type d’investigation. Le problème que pose ce vocable est de savoir s’il recouvre un objet… …   Encyclopédie Universelle

  • Quantitative — Quantité La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire, vecteur, nombre d’objets ou d’une autre manière de dénommer la valeur d’une collection ou un groupe de choses. C’est habituellement représenté… …   Wikipédia en Français

  • Negation (linguistique) — Négation (linguistique) Pour les articles homonymes, voir négation. En linguistique, la négation (du latin negare, nier)[1] est une opération qui consiste à désigner comme fausse une proposition préalablement exprimée ou non ; elle s’oppose… …   Wikipédia en Français

  • Négation linguistique — Négation (linguistique) Pour les articles homonymes, voir négation. En linguistique, la négation (du latin negare, nier)[1] est une opération qui consiste à désigner comme fausse une proposition préalablement exprimée ou non ; elle s’oppose… …   Wikipédia en Français

  • Négation (linguistique) — Pour les articles homonymes, voir négation. En linguistique, la négation (du latin negare, nier)[1] est une opération qui consiste à désigner comme fausse une proposition préalablement exprimée ou non ; elle s’oppose à l’affirmation. Bien… …   Wikipédia en Français

  • QUANTIFICATION (linguistique) — QUANTIFICATION, linguistique La quantification est une série d’opérations de détermination qui sont constitutives de la bonne formation de l’énoncé. Le terme de quantification, en tant qu’opérations, a été introduit par C. S. Peirce et par G.… …   Encyclopédie Universelle

  • Charles Muller (Romanist) — Charles Muller (* 22. September 1909) ist ein französischer Romanist und Sprachpfleger. Inhaltsverzeichnis 1 Leben und Werk 2 Weitere Werke 2.1 Sprachstatistik 2.2 …   Deutsch Wikipedia

  • quantitatif — quantitatif, ive [ kɑ̃titatif, iv ] adj. • 1586, rare av. XIXe; lat. médiév. quantitativus ♦ Qui concerne la quantité, appartient au domaine de la quantité et des valeurs numériques. « Le passage de l état liquide à l état gazeux se définira… …   Encyclopédie Universelle

  • LEXICOLOGIE — La lexicologie est l’étude de la signification des mots. Par «mots», il faut entendre les lexèmes et les morphèmes d’une langue donnée, c’est à dire les unités lexicales dépouillées de leur marquage flexionnel éventuel. Ces unités correspondent… …   Encyclopédie Universelle

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”